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А cóż to takiego? 


Uczeniem maszynowym nazywamy dziedzinę nauki (i sztukę) 
programowania komputerów w sposób umożliwiający im uczenie się 
z danych. 


Aurélien Géron, 2017 


[Uczenie maszynowe to] dziedzina nauki dająca komputerom możliwość 
uczenia się bez konieczności ich jawnego programowania. 


Arthur Samuel, 1959 


А do czego to uczenie maszynowe? 


e Do rozwiązywania problemów, które wymagają wielu „ręcznyc” 
ustawień parametrów algorytmu lub składają się z wielu reguł. 
Algorytmy uczenia maszynowego potrafią ,,generalizować". 


e Do rozwiązywania problemów złożonych. 


e Do zmiennych środowisk; algorytmy potrafią dostosowywać się do 
nowych danych. 


e Do problemów składających się z olbrzymiej ilości danych. 


Uczenie maszynowe — przykłady problemów 


e filtr antyspamowy 

e diagnostyka medyczna 

e rozpoznawanie obrazów 

e podpowiedzi na różnych portalach, co jeszcze mogłoby się podobać 
e translator Google 

e badanie zdolności kredytowej 

e rozpoznawanie mowy 

e kierowanie pojazdem 

e granie w gry 


e włamania lub dziwne zachowania w sieci 
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Klasyfikacja 


Schemat blokowy uczenia maszynowego 
Dane uczące 


Algorytm uczenia maszynowego 


Nowe dane |————>| Klasyfikator |———>| Przypisanie do klasy 


Kilka pojęć na początek 


Atrybuty (bądź cechy) to pewne cechy charakteryzujące właściwości 
rozważanych obiektów. 


Zbiór uczący to zbiór przykładów, obserwacji, próbek służący do 
wytrenowania klasyfikatora. 


Klasa to zbiór obiektów charakteryzujących się pewnymi wspólnymi 
właściwościami. 


Rodzaje uczenia maszynowego 


e Uczenie nadzorowane i nienadzorowane 


o Uczenie nadzorowane (z nauczycielem) 

o Uczenie nienadzorowane (bez nauczyciela) 
o Uczenie częściowo nadzorowane 

o Uczenie przez wzmacnianie 


e Uczenie wsadowe/przyrostowe 


e Uczenie z przykładów /modelu 


Problemy uczenia maszynowego 


Niedobór danych uczących 
e Niereprezentatywne dane uczące 


Dane kiepskiej jakości 


e Nieistotne cechy 


Przetrenowanie danych uczących 
e Niedotrenowanie danych uczących 
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Macierz pomyłek 


| Klasa predykowana — wynik testu 
Klasyfikacja Klasyfikacja 
pozytywna negatywna 


Klasa 
rzeczywista 


Stan 
pozytywny 


Stan 
negatywny 
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Macierz pomyłek — przykład 


Rozpoznany jako 


pies kot 
з pies 9 5 
ТЕ 20 
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Podstawowe miary wynikające z macierzy pomyłek 


Skuteczność 


TP+ ТМ 
Liczebność populacji 


ang.: Accuracy, ACC 


Czułość, pełność 


TP 
TP+FN 
ang.: True positive rate (TPR), Recall, Sensitivity 
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Podstawowe miary wynikające z macierzy pomyłek 


FP 


FP+ TN 
ang.: False positive rate (FPR), Fall-out 


TP 


ТР + ЕР 


ang.: Precision, Positive predictive value (PPV) 
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Interpretacja miar 


| Rozpoznany jako 


pies ~pies 
°: pies 9 5 
Obiekt Rp 6 20 
TPR 12 аа 0.64 


TP+FN 9+5 
Jak dużo wystąpień psa zakwalifikowaliśmy do klasy ‘pies’? Jest to zdolność 
klasyfikatora do prawidłowego określania klasy pozytywnej. 


FP 6 
FP+ ТМ 6--20 
Jak dużo wystąpień innych zwierząt zakwalifikowaliśmy do klasy ‘pies’? Jest to 
zdolność klasyfikatora do prawidłowego określania klasy negatywnej. 


FPR = 0.23 


IP _ 9 
TP+FP 9-6 
Jak często klasę 'pies' udało nam się zakwalifikować poprawnie? 


PPV = 0.60 
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Współczynnik kappa 


Współczynnik kappa informuje nas, gdzie w skali pomiędzy klasyfikacją 
losową a idealną, znajduje się dany klasyfikator. 


_ ро = Pe _ 1— po 
K= = 1 
1— pe 1— pe 
gdzie: 
e po — trafność obserwowana 


e pe — trafność oczekiwana 
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Współczynnik kappa — jak wyznaczyć? 


| Rozpoznany jako 


pies ~pies 
Obiekt P'S | а р 
pies c d 
9+ 20 29 
= = = 0.725 
PO 9+54+6+20 40 


= a+b a+c | с+а b+d Е 
Ре = ope tg aE pe  а+Ь+с+даа+Ь+с+а_ 
Е 9+5 9+6 | 6 + 20 5+ 20 Е 
© 9+5+6+209+5+6+20 9+5+6+209+5+6+20 ` 


= 0.350 * 0.375 + 0.650 ж 0.625 = 0.131 + 0.406 = 0.538 


Po — Pe 0.725 — 0.538 
= =i — == A 
ZCS: i053 0 
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Krzywa ROC i pole pod krzywą 


TPR or sensitivity 


ROC Space 
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FPR or (1 - specificity) 


https://en.wikipedia.org/wiki/Receiver_operating_characteristic 
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ZeroR i OneR 


Outlook | Temp | Humidity | Windy | Play Golf 
Rainy Hot High False No 
Rainy Hot High True No 

Overcast Hot High False Ves 
Sunny Mild High False Yes 
Sunny Cool Normal False Yes 
Sunny Cool Normal True No 

Overcast | Cool Normal True Yes 
Rainy Mild High False No 
Rainy Cool Normal False Yes 
Sunny Mild Normal False Yes 
Rainy Mild Normal True Yes 

Overcast | Mild High True Yes 

Overcast Hot Normal False Yes 
Sunny Mild High True No 
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Najbliższy sąsiad 


Algorytm k najbliższych sąsiadów (k-NN, k Nearest Neighbours) 


Ogólny schemat: 
1 Poszukaj k najbliższych punktów (sąsiadów) dla analizowanego 
przypadku. 
2 Przypisz rozważany przypadek do występującej najczęściej wśród 
sąsiadów klas. 
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Najbliższy sąsiad — dane 


długość | wysokość : 
nogi [m] | ciata [m] prao: 
1.46 0.86 zebry 
1.32 1.47 zebry 
0.9 1.27 zebry 
1.08 0.95 zebry 
0.53 0.65 zebry 
1.39 2.25 konie 
0.69 2.18 konie 
0.59 1.89 konie 
0.71 1.72 konie 
2.27 1.77 zyrafy 
1.61 1.61 zyrafy 
1.7 2.08 zyrafy 
1.54 2.03 zyrafy 
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Najbliższy sąsiad - rysunek 


wysokosc ciala [m] 
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e zebry 
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ө żyrafy 


2.00 2.25 
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Miary odległości 


Odległość pomiędzy dwoma punktami ру = (x1, y1) oraz рә = (х, y2). 


Odległość euklidesowa 


d(A, B) = у (а — %)? + (уз — уз)? 


Odległość taksówkowa (Manhattan) 


d(A, B) = |x — x| + |у — ya 
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Dane i obliczone odległości 


długość | wysokość ) dległość 

nogi [m] | ciała [m] zwierzę | odległość 
1.46 0.86 zebry 0.64 
1.32 1.47 zebry 0.18 
0.9 1.27 zebry 0.64 
1.08 0.95 zebry 0.69 
0.53 0.65 zebry 1.29 
1.39 2.25 konie 0.76 
0.69 2.18 konie 1.06 
0.59 1.89 konie 0.99 
0.71 1.72 konie 0.82 
2.27 1.77 zyrafy 0.82 
1.61 1.61 zyrafy 0.16 
1.7 2.08 zyrafy 0.61 
1.54 2.03 zyrafy 0.53 
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Dane i obliczone odległości 


Dla К = 1 dominująca klasa to: żyrafy 
Dla k = 3 dominująca klasa to: żyrafy 
Dla k =5 dominująca klasa to: żyrafy 


Dla k = 7 dominująca klasa to: zebry 
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Najbliższy sąsiad — zaszumione dane 
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Najbliższy sąsiad — podsumowanie 


e nie trzeba uczyć klasyfikatora 
e „kosztowny” proces klasyfikacji 
e wrażliwość na dane zaszumione lub błędne 


e dobrze radzi sobie z dużą liczbą klas 
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Algorytm k-średnich 


Algorytm k-średnich (centroidów, k-means) 


Centroid to punkt związany z wielokątem, leżący wewnątrz niego, 
reprezentujący jego geometryczne „środka”. 


Schemat: 


H 


wybieramy k początkowych punktów centroidów(np. na drodze 
losowania) 


№ 


obliczamy odległość pomiędzy każdym punktem danych i każdym 
z k punktów centroidów 


w 


dzielimy punkty danych na k skupień, dany punkt należy do tego 
skupienia, do którego centroidu ma najbliżej 


a 


uaktualniamy położenie centroidu — liczymy średnią wszystkich 
współrzędnych punktów należących do danego skupienia 


с 


jeśli nie jest spełnione kryterium końca wracamy do pkt 2 


28 / 64 


Wyznaczanie centroidu 


3.0 

2.54 

Dane 

punkty 2.0 4 o e 

(1,1) 

(1,2) > 154 

(2,1) 

(2,2) 103 ° ° 
0.54 
0.0 + T T T T T 

0.0 0.5 1.0 1.5 2.0 2.5 3.0 
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Wyznaczanie centroidu 


3.0 


2.51 


2.03 e e 


хе = =:1.5 


Ye = ——, = 15 1.04 


0.5 4 


0.0 0.5 1.0 1.5 2.0 2.5 3.0 
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Algorytm k-średnich 
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Algorytm k-średnich 
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Algorytm k-średnich 


Zalety: 
e niewielka złożoność obliczeniowa 
e prosta idea 
e wydajny dla dużych zbiorów i niedużej liczbie grup 


Wady: 


e mało odporny na zaszumione dane 


problem z ustaleniem liczby skupień 


e czasem różne wartości początkowe prowadzą do różnych wyników 


działa dobrze tylko dla „sferycznych” skupisk o podobnej gęstości 
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Algorytm k-mendoidów 


Algorytm k-mendoidów (k-medoids) 

Jest to bliźniaczy dla k-średnich algorytm, w którym nowy punkt 
centralny powstaje przez wybranie z danego skupienia punktu, który ma 
najmniejszą sumę odległości do wszystkich pozostałych punktów w tym 
skupieniu. 


Pozostały schemat działania pozostaje bez zmian. 
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Algorytm k-mendoidów 


Zalety: 


e lepiej radzi sobie z dalekimi obiektami (punktami), bardziej odporny 
na szum 


e prosta idea 
e początkowy zbiór nie wpływa na wyniki 


Wady: 
e gorzej radzi sobie z dużymi zbiorami danych 
e problem z ustaleniem liczby skupień 


e potrzebna więcej zasobów dla dużej liczby skupień i obiektów 
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SVM 


Maszyna wektorów nośnych lub maszyna wektorów wspierających 
(support vector machine) do klasyfikacji wykorzystuje proces nazywany 
„klasyfikowaniem maksymalnego marginesu”. Proces ten ma dwa 
warianty: 

e klasyfikacja twardego marginesu 

e klasyfikacja miękkiego marginesu 
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SVM 
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SVM 
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SVM 


Zalety: 
e skuteczność 
e działa dobrze z małymi zestawami danych uczących 


e radzi sobie z nadmiernym dopasowaniem danych 


Wady: 
e czas szkolenia może być długi dla dużych zbiorów 
e ma problemy z nakładającymi się zbiorami 
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Przeuczenie 


Nadmierne dopasowanie, przeuczenie, przetrenowanie, overfitting 
jeśli klasyfikator budowany jest na niewystarczającej ilości danych, będzie 
on dawał gorsze wyniki dla danych, z którymi wczesniej się nie zetknął. 


Krótko mówiąc, zjawisko to zachodzi, kiedy:: 


ACC(dane_uczace) > ACC(dane_testowe) 
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Testowanie klasyfikatora 


e test na zbiorze uczącym 
e test na wydzielonym zbiorze testowym 


e walidacja krzyżowa 
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Walidacja krzyżowa 


Walidacja krzyżowa, kroswalidacja, sprawdzanie krzyżowe, k-fold 
cross-validation metoda polegająca na podziale analizowanego zbioru na 
podzbiory, a następnie trenowanie klasyfikatora na części z nich (zbiór 


uczący), podczas gdy pozostałe służą do sprawdzenia wiarygodności jej 
wyników (zbiór testowy). 
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Walidacja krzyżowa 


20% 20% 20% 20% 20% 


ЕҢ. testowy {Ц uczący 
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Drzewa decyzyjne 


< 10 la > 10 lat 


. inne 
wyzsze 


с 
2 
w 
> 
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Drzewa — podstawowe pojęcia 


e Węzeł — w węźle znajduje się zawsze albo test na wartości 
pewnego atrybutu, albo klasa decyzyjna. 


e Krawędź — łączy dwa węzły, przy czym strzałka określa kierunek 
połączenia. Z każdą krawędzią związana jest pewna etykieta, np. 
niskie, średnie, tak, nie. Etykiety to możliwe wartości atrybutu 
związanego z węzłem, z którego wyszła ta krawędź. 

e Liść — węzeł, z którego nie wychodzi żadna krawędź. W liściu 
zawsze znajdować się będzie przypisanie do jakiejś klasy decyzyjnej, 
w tym wypadku do TAK albo do NIE. 

e Korzeń — od korzenia drzewo zaczyna rosnąć. Jest to węzeł, do 
którego nie dochodzi żadna krawędź. 


Entropia 


Entropia (funkcja przyrostu informacji) 

Średnia ilość informacji, przypadająca na pojedynczą wiadomość ze 
źródła informacji. Innymi słowy jest to średnia ważona ilości informacji 
niesionej przez pojedynczą wiadomość, gdzie wagami są 
prawdopodobieństwa nadania poszczególnych wiadomości. 


Funkcja oceny testu, nazywana przyrostem informacji, jest obliczana 
następująco: 

g:(P) = I(P) — E(P) 
gdzie: 


ІР pak 
I(P) = 27 о e (pi 


E,(P) = >. SEP 
ER: 
E„(P) = >- єр 


veV | Per| 
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Przykład 


Outlook | Temp | Humidity | Windy | Play Golf 
1 Rainy Hot High False No 
2 Rainy Hot High True No 
3 | Overcast | Hot High False Yes 
4 Sunny Mild High False Yes 
5 Sunny Cool Normal False Yes 
6 Sunny Cool Normal True No 
7 | Overcast | Cool Normal True Yes 
8 Rainy Mild High False No 
9 Rainy Cool Normal False Yes 
10 Sunny Mild Normal False Yes 
11 Rainy Mild Normal True Yes 
12 | Overcast | Mild High True Yes 
13 | Overcast | Hot Normal False Yes 
14 | Sunny Mild High True No 


Budowa drzewa — algorytm ID3 


| T Yes 
| TNo 


| T Outlook,Sunny = 
Yes 
| T Outlook,Sunny = 
No 
| T Outlook,Sunny БЕ 
| T Outlook, Overcast == 
| T Yes 
Outlook, Overcast| 7” 
| T No 
Outlook, Overcast| — 
| T Outlook, Rainy| — 


| ПО Баб Rainy| — 
= {6,14 = 2 


Мо 
| T Outlook, Rainy 


{3,4,5,7,9,10,11,12,13}| = 9 
{1,2,6,8,14}| = 5 
{1,2,8,9,11}| = 5 

{9,11}| =2 

{1,2,8}| =3 

{3,7,12,13}| = 4 
{3,7,12,13}| = 4 


0| = 0 
{4,5,6,10,14}| = 5 
(4,5,10)| = 3 


http://wazniak.mimuw.edu.pl/index.php?title=Sztuczna_inteligencja/ 
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Budowa drzewa — algorytm ID3 


Entropia dla kolejnych elementów: 


EOutlook,Sunny( Р) = 2 logo 2 5 logo 5 = 0.971 
EOutlook,Overcast( Р) = 1 logo н 2 log> 2 = 0 
Eoutlook,Rainy(P) = ; log, ; : logo с = 0.971 
Entropia ważona: 
Еошоо(Т) = тд * 0-971 + та 0 + ту 0.971 = 0.694 


Informacja zawarta w zbiorze dla atrybutu Outlook: 


9 9 5 5 
| | = 0.940 
14 5214 14 98214 


I(T) = 


Przyrost informacji: 
goutlook( Г) = 0.940 — 0.694 = 0.246 


http://wazniak.mimuw.edu.pl/index.php?title=Sztuczna_inteligencja/ 
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Budowa drzewa — algorytm ID3 


W ten sam sposób wyznaczono kolejno: 


£Temperature( Т) = 0.940 — 0.911 = 0.029 
SHumidity( Т) = 0.940 — 0.788 = 0.152 
SWindy( Т) = 0.940 — 0.892 = 0.048 


sunny overcast ainy 


Budowa drzewa — algorytm ID3 


Dla gałęzi drzewa możemy analizować skrócone tabele: 


Outlook | Temp | Humidity | Windy | Play Golf 


Sunny Mild High False Yes 
Sunny Cool Normal False Yes 
Sunny Cool Normal True No 
Sunny Mild Normal False Yes 
Sunny Mild High True No 


Outlook | Temp | Humidity | Windy | Play Golf 


Rainy Hot High False No 
Rainy Hot High True No 
Rainy Mild High False No 
Rainy Cool Normal False Yes 


Rainy Mild Normal True Yes 


Drzewa decyzyjne 


sunny overcast Nrainy 
high true 
normal false 
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Zapisywanie w postaci reguł 


outlook = sunny A humidity = high > No 
outlook = sunny A humidity = normal — No 
outlook = overcast — Yes 

outlook = rainy A wind = false > Yes 


outlook = rainy A wind = true — No 
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Podsumowanie 


Zalety: 
e jest to efektywna metoda reprezentacji pojęć 
e wykorzystuje dane ilościowe i jakościowe 
e odporna na szumy w danych 
e metoda czytelna dla człowieka 


e możliwe łatwe przejście do reguł 


Wady: 
e drzewa mogą się zbytnio rozrastać 


e każda zmiana w drzewie powoduje, że algorytm trzeba uruchomić na 
nowo 


e może popełniać wiele błędów, jeśli coś blisko korzenia „pójdzie nie 
так” 


e atrybuty decyzyjne powinny być dyskretne 
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Naiwny klasyfikator Bayesa 


Naiwny klasyfikator bayesowski jest prostym probabilistycznym (czyli 
wykorzystującym prawdopodobieństwo) klasyfikatorem. Jego „naiwność” 
polega na założeniu o niezależności atrybutów, tj. wzajemną niezależność 
zmiennych niezależnych. Często nie mają one żadnego związku 

z rzeczywistością i właśnie z tego powodu nazywa się je naiwnymi. 


Model cech niezależnych można wyprowadzić korzystając z twierdzenia 
Bayesa. 
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Twierdzenie Bayesa 


P(B|A)P(A) 
P(A|B) = 
(AB) = SB) 
gdzie: 
e P(A|B) — prawdopodobienstwo warunkowe zajścia zdarzenia A, pod 
warunkiem zajścia zdarzenia B 


P(B|A) — prawdopodobieństwo warunkowe zajścia zdarzenia B, 
pod warunkiem zajścia zdarzenia A 


e P(A) — prawdopodobieństwo zajścia zdarzenia A 


e P(B) — prawdopodobieństwo zajścia zdarzenia В 


Prawdopodobieństwo warunkowe — przykład 


Chorzy Zdrowi 
Test + 99 99 198 

Test — 1 9801 9802 
100 9900 10000 


e P(A)= 10000 = 0.01 — prawdopodobieństwo choroby 
е P(B) = 11% = 0.0198 — prawdopodobieństwo testu + 


e P(B|A) = 0.99 — prawdopodobieństwo testu +, jeżeli ma się 
chorobę 


P(B|A)P(A) 0.99-0.01 _ 


P(A|B) = = = 0.5 
AŻ P(B) 0.0198 


Model cech niezależnych — założenie 


P(A|B) = P(A, A A> A... A А,В) = P(A1|B) - P(A>|B)--- P(A„|B) 


P(X|B) = O 
P(Y|B) = Ая 


P(X|B) = P(B,|X) - P(B|X)---P(B|X) : P(X): C 
P(Y|B) = P(BiY): P(Ba|Y)---P(BZ|Y) : P(Y): C 
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Przykład 


Outlook | Temp | Humidity | Windy | Play Golf 
Rainy Hot High False No 
Rainy Hot High True No 

Overcast Hot High False No 
Sunny Mild High False Yes 
Sunny Cool Normal False Yes 
Sunny Cool Normal True No 

Overcast | Cool Normal True Yes 
Rainy Mild High False No 
Rainy Cool Normal False Yes 
Sunny Mild Normal False Yes 
Rainy Mild Normal True Yes 

Overcast | Mild High True Yes 

Overcast Hot Normal False Yes 
Sunny Mild High True No 


Naiwny klasyfikator Bayesa — przykład 


Mamy zadecydować, czy grać, czy nie grać w golfa, jeśli: 
jest pochmurno, chłodno, wilgotność normalna i nie wieje wiatr? 


8 5 
P(YES) = — P(False| YES) = — 
(YES) = 2 (False|YES) = 2 
6 1 
P(NO) = 14 P(Overcast|NO) = 6 
1 
P(Overcast|YES) = з P(Cool|NO) = 6 
1 
P(Cool|YES) = 5 P(Normal|NO) = 6 
P(Normal|YES) = ° P(False|NO) = 5 
8 33 6 5 
P(Example| YES) = —-=-=-=- = =0. 
(Example| YES) ПЫ ae ee 0.038 
6 1 1 1 


3 
P(Example|YES) = ja Gs Bere 0.001 
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Wygładzenie Laplace'a 


P(X) = liczba_przykladow (X) 
laczna_liczba_przykladow 

P(X) = liczba_przykladow(X) + 1 
laczna_liczba_przykladow + k · liczba_klas 


liczba_przykladow(X N Y) 


P(X|Y) = 
AO laczna_liczba_przykladow (Y ) 
P(X|Y) = liczba_przykladow(X С Y) +1 
= laczna_liczba_przykladow(Y) + k - liczba_klas 
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Selekcja cech 


Celem selekcji cech jest wybrane ze zbioru cech takich, które zapewniają 
nam możliwie najlepszą klasyfikację. W zbiorze cech mogą wystąpić 

cechy redundantne, czyli niosące identyczną informację jak istniejące już 
cechy lub cechy wprowadzające szum, obniżające skuteczność klasyfikacji. 


Selekcja ma wpływ na: 


poprawę wyników predykcji, 

zmniejszenie wymagań obliczeniowych, 

zmniejszenie wymagań odnośnie gromadzenia danych, 
redukcję kosztów przyszłych pomiarów, 


poprawę jakości danych. 


Selekcja cech 


Przykłady metod selekcji cech: 
e Metody rankingowe, 
e Selekcja podzbioru cech, 


e Metody wyspecjalizowane: 
e Relief, 

mRMR, 

SBS, SFS 

itp. 

Algorytmy genetyczne 
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Dziękujemy za uwagę 


